iT邦幫忙

2023 iThome 鐵人賽

DAY 5
0
AI & Data

打造數據科學之路:資料分析與機器學習的完整指南系列 第 5

鐵人賽第五天~ETL(擷取、轉換、載入)

  • 分享至 

  • xImage
  •  

~今天要分享的是「ETL的介紹」~

ETL是在資料預處理的階段執行,目的是讓結構資料與非結構資料經過此技術後,變得更容易分析。
它由三個英文單字所組成,分別是:Extraction擷取、Transformation轉換、Loading載入。

  1. 在第一步「Extraction擷取」的階段時,會從多個來源(像是檔案、資料庫、網路等)提取原始資料,這個階段會將大檔案分割成數個小檔案,然後逐一進行資料擷取,最後將這些資料放入暫存區。

  2. 在第二步「Transformation轉換」的階段時,會進行資料清洗、資料轉換和資料匯總等處理,以確保資料的一致性和完整性來提高資料的可用性。

  3. 在第三步「Loading載入」的階段時,會把經過轉換階段後的資料從暫存區載入到資料倉儲,其中載入的方法可以是使用串流處理或是批次處理,這兩個方法最大的差別是,通常使用批次處理的資料量都很大,所以需要花費的時間會比較久,而串流處理則相反。

雖然ETL的基本概念可能相比其他數據分析的知識點來的較為簡單,但這是我曾經在準備考試時遇到的新知識,因此我希望分享给大家,讓大家都能掌握到這一個重要的概念。


上一篇
鐵人賽第四天~資料清洗
下一篇
鐵人賽第六天~探索式資料分析
系列文
打造數據科學之路:資料分析與機器學習的完整指南30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言